我们在随机多臂匪徒问题中使用固定预算和上下文(协变)信息研究最佳武器识别。在观察上下文信息之后,在每一轮中,我们使用过去的观察和当前上下文选择一个治疗臂。我们的目标是确定最好的治疗组,这是一个在上下文分布中被边缘化的最大预期奖励的治疗组,而错误识别的可能性最小。首先,我们为此问题得出半参数的下限,在这里我们将最佳和次优的治疗臂的预期奖励之间的差距视为感兴趣的参数,以及所有其他参数,例如在上下文中的预期奖励,作为滋扰参数。然后,我们开发“上下文RS-AIPW策略”,该策略由随机采样(RS)规则组成,跟踪目标分配比和使用增强反向概率加权(AIPW)估算器的建议规则。我们提出的上下文RS-AIPW策略是最佳的,因为错误识别概率的上限与预算到Infinity时的半参数下限相匹配,并且差距趋于零。
translated by 谷歌翻译
我们考虑使用未知差异的双臂高斯匪徒的固定预算最佳臂识别问题。当差异未知时,性能保证与下限的性能保证匹配的算法最紧密的下限和算法的算法很长。当算法不可知到ARM的最佳比例算法。在本文中,我们提出了一种策略,该策略包括在估计的ARM绘制的目标分配概率之后具有随机采样(RS)的采样规则,并且使用增强的反概率加权(AIPW)估计器通常用于因果推断文学。我们将我们的战略称为RS-AIPW战略。在理论分析中,我们首先推导出鞅的大偏差原理,当第二次孵化的均值时,可以使用,并将其应用于我们提出的策略。然后,我们表明,拟议的策略在错误识别的可能性达到了Kaufmann等人的意义上是渐近最佳的。 (2016)当样品尺寸无限大而双臂之间的间隙变为零。
translated by 谷歌翻译
我们考虑在多武装匪徒问题中拜耳最佳武器识别。假设先前的某些连续性条件,我们表征了贝叶斯简单遗憾的速度。与贝叶斯遗憾的不同(Lai,1987),贝叶斯简单遗憾的主要因素来自最佳和次优臂之间的差距小于$ \ sqrt {\ frac {\ log t} {t}}$。我们提出了一种简单且易于计算的算法,其前导因子与下限达到恒定因子;仿真结果支持我们的理论发现。
translated by 谷歌翻译
我们认为“政策选择”问题 - 否则称为强盗文献中的最佳臂识别 - 由Kasy和Sautmann(2021)提出的适应性实验设计。Kasy和Sautmann(2021)的定理提供了三种渐近结果,为该环境开发的探索采样提供了理论担保。首先表明定理1(1)的证明具有技术问题,定理1(2)的证明和声明是不正确的。然后,我们通过一个反例来展示定理1(3)是假的。对于前两者,我们纠正了陈述并提供严格的证据。对于定理1(3),我们提出了一种替代目标函数,我们称之为后加权政策遗憾,并导出勘探采样的渐近最优性。
translated by 谷歌翻译
我们考虑在有条件的力矩限制下学习因果关系。与无条件力矩限制下的因果推断不同,有条件的力矩限制对因果推断构成了严重的挑战,尤其是在高维环境中。为了解决这个问题,我们提出了一种方法,该方法使用条件密度比估计器将有条件的力矩限制通过重要性加权转换为无条件的力矩限制。使用这种转换,我们成功估计了条件矩限制下定义的非参数功能。我们提出的框架是一般的,可以应用于包括神经网络在内的广泛方法。我们分析估计误差,为我们提出的方法提供理论支持。在实验中,我们确认了我们提出的方法的健全性。
translated by 谷歌翻译
我们在随机匪徒上使用时(协变量)信息时,我们研究了固定信道的最佳武器识别问题。虽然我们可以在每轮中使用上下文信息,但我们对在语境分布上的边缘化平均奖励感兴趣。我们的目标是在给定值的错误率下识别最少数量的采样。我们显示出问题的特定实例的示例复杂性下限。然后,我们提出了一个“跟踪和停止”策略的上下文知识版本,其中ARM的比例绘制追踪一组最佳分配,并证明预期的ARM绘制数与渐近的下限匹配。我们证明,与Garivier&Kaufmann(2016)的结果相比,可以使用上下文信息来提高最佳边缘化平均奖励的效率。我们通过实验证实了上下文信息有助于更快的最佳武器识别。
translated by 谷歌翻译
我们考虑训练在延迟反馈(\ emph {df Learning})下培训二进制分类器。例如,在在线广告中的转换预测中,我们最初收到单击广告但没有购买商品的负样本;随后,其中一些样本购买了一个物品,然后更改为正面。在DF学习的环境中,我们会随着时间的推移观察样本,然后在某个时候学习分类器。我们最初收到负样本;随后,其中一些样本变为正变为正。在各种现实世界中,例如在线广告,在首次单击后很长时间进行用户操作,可以想象此问题。由于反馈的延迟,正对正和负样品的天真分类返回偏置分类器。一种解决方案是使用已正确标记这些样品的样品超过一定时间窗口的样品。但是,现有研究报告说,仅根据时间窗口假设使用所有样本的子集的性能不佳,并且使用所有样本以及时间窗口假设可以提高经验性能。我们扩展了这些现有研究,并提出了一种具有无偏见和凸经验风险的方法,该方法是根据时间窗口假设在所有样本中构建的。为了证明所提出的方法的合理性,我们为在线广告中的真实流量日志数据集提供了合成和开放数据集的实验结果。
translated by 谷歌翻译
This study targets the mixed-integer black-box optimization (MI-BBO) problem where continuous and integer variables should be optimized simultaneously. The CMA-ES, our focus in this study, is a population-based stochastic search method that samples solution candidates from a multivariate Gaussian distribution (MGD), which shows excellent performance in continuous BBO. The parameters of MGD, mean and (co)variance, are updated based on the evaluation value of candidate solutions in the CMA-ES. If the CMA-ES is applied to the MI-BBO with straightforward discretization, however, the variance corresponding to the integer variables becomes much smaller than the granularity of the discretization before reaching the optimal solution, which leads to the stagnation of the optimization. In particular, when binary variables are included in the problem, this stagnation more likely occurs because the granularity of the discretization becomes wider, and the existing modification to the CMA-ES does not address this stagnation. To overcome these limitations, we propose a simple extension of the CMA-ES based on lower-bounding the marginal probabilities associated with the generation of integer variables in the MGD. The numerical experiments on the MI-BBO benchmark problems demonstrate the efficiency and robustness of the proposed method. Furthermore, in order to demonstrate the generality of the idea of the proposed method, in addition to the single-objective optimization case, we incorporate it into multi-objective CMA-ES and verify its performance on bi-objective mixed-integer benchmark problems.
translated by 谷歌翻译
The modern dynamic and heterogeneous network brings differential environments with respective state transition probability to agents, which leads to the local strategy trap problem of traditional federated reinforcement learning (FRL) based network optimization algorithm. To solve this problem, we propose a novel Differentiated Federated Reinforcement Learning (DFRL), which evolves the global policy model integration and local inference with the global policy model in traditional FRL to a collaborative learning process with parallel global trends learning and differential local policy model learning. In the DFRL, the local policy learning model is adaptively updated with the global trends model and local environment and achieves better differentiated adaptation. We evaluate the outperformance of the proposal compared with the state-of-the-art FRL in a classical CartPole game with heterogeneous environments. Furthermore, we implement the proposal in the heterogeneous Space-air-ground Integrated Network (SAGIN) for the classical traffic offloading problem in network. The simulation result shows that the proposal shows better global performance and fairness than baselines in terms of throughput, delay, and packet drop rate.
translated by 谷歌翻译
Telework "avatar work," in which people with disabilities can engage in physical work such as customer service, is being implemented in society. In order to enable avatar work in a variety of occupations, we propose a mobile sales system using a mobile frozen drink machine and an avatar robot "OriHime", focusing on mobile customer service like peddling. The effect of the peddling by the system on the customers are examined based on the results of video annotation.
translated by 谷歌翻译